草庐IT

python - 在 Python 中清理 HTML

全部标签

xml - 用python解析xml(查找带有特定文本的标签)

我的任务是处理一个xml文件,以查找特定元素并将它们导出到一个csv文件中。我在处理相同标签中的一些信息时遇到了特别的麻烦:textvalue每个名称标签都包含不同的值,我只需要其中的一些..我尝试使用以下代码遍历文件:try:descr=member.find('.//name').textifdescr=='description':plugin.append(descr)exceptAttributeError:descr='Unknown'plugin.append(descr)但它只返回'Unknown'我的整个代码是这样的(未完成):importxml.etree.Elem

html - 如何使用 xPath 在 xml 中为多个 <p> 使用宏函数?

Ineedtoextractaddress,telephonenousingxPathfrommyhtmlpage.Myaddressissometimeswithinone``,elsewithintwo``.Ihave11stores.Thisisthehtmltaginmyxml.(Justanexample)==$036ruedelaVerrerie75004PARISTél:0111222222==$011ruedesarchives75004PARISTél:01111111111stshop:P1=addressP2=tel2ndshopP1=addressP2=telP

php - 什么是通过 rss 提要将 html 嵌入代码传递给 php 中的 rss 解析器的最佳方法?

我试图将flash视频的html嵌入代码放入rss提要,然后由我的其他站点上的解析器(magpie)进行解析。我应该如何在一侧对嵌入代码进行编码,然后在另一侧对其进行解码,以便我可以将干净的html插入到接收服务器上的DB中? 最佳答案 由于RSS是XML,您可能需要查看CDATA,我相信它在各种RSS规范中都是有效的。这是上面的w3schools条目:http://www.w3schools.com/XML/xml_cdata.asp 关于php-什么是通过rss提要将html嵌入代码

python - 使用 Python 转义 _xHHHH_ XML 转义序列

我正在使用Python2.x[不可协商]读取XML文档[由其他人创建],这些文档允许许多元素的内容包含通过使用_xHHHH_约定例如ASCIIBELakaU+0007由7个字符序列u"_x0007_"表示。允许在文档中表示任何旧字符的功能和转义方式都是不可协商的。我正在使用cElementTree或lxml[semi-negotiable]解析文档。这是我尽可能有效地对解析器输出进行转义的最佳尝试:importredefunescape(s,subber=re.compile(r'_x[0-9A-Fa-f]{4,4}_').sub,repl=lambdamobj:unichr(int(

python - 在 XML 节点中设置自增属性

我正尝试在我的XML的一个节点中设置一个属性,如下所示:rank=1forphotoins:image=feed.createElement('Image')images.appendChild(image)image.setAttribute("rank",rank)p=feed.createTextNode(str(main_url+photo.display.url))image.appendChild(p)rank+=1然而,这会导致错误:'int'objecthasnoattribute'replace'inreferencetotheline:image.setAttrib

php - 通过 HTML 表单发布 XML

我正在开发一个web并希望创建它以便用户可以创建一些POSTingXML数据。为此目的,有一个用户可以在其中编写(复制/粘贴)XML并提交。问题是我正在丢失数据:等字符,>,我认为其他人也会迷路。也许这是一个框架问题,不确定,我正在使用Elgg并使用get_input()接收数据.UPDATE1:一些代码回答了评论:接收数据我使用elggget_input()$data=get_input('data'); 最佳答案 如果我要大胆猜测,我会说get_input()使用了某种自动神奇的xss保护。您可以尝试执行print_r($_PO

python - 生成/写入 XML 文件的标准方式

对于一个项目,我需要生成符合特定格式的XML文件。我想知道,这样做的标准方法是什么?就我而言,我使用lxml然后编写XML文件。为此,我编写了一个小脚本,将XML数据作为输入,然后生成文件。这种做法“可行”吗?因为我对这一切都不熟悉,而且我看到很多人使用TeX,然后将其转换为XML。或者是否有更好的方法完全做到这一点?编辑:请注意,我必须允许最终用户生成这些文件,而不需要他们做任何努力。 最佳答案 对于python3:http://diveintopython3.org/xml.html#xml-parse

python - 保持属性顺序的 XML 解析器编写器

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭3年前。Improvethisquestion我需要解析XML文档,然后将每个节点写入单独的文件,以保持属性的准确顺序。所以如果我有这样的输入文件:每个项目的输出应该是2个文件。现在,如果使用xml.dom.minidom-输出中的属性顺序已更改(我可以得到-)我找到了pxdom库,它保持顺序但非常非常慢(minidom解析需要0.08秒,pxdom解析需要2.5秒。)有没有其他可以保留属性的python库?UP

iphone - 将 HTML 解析为 XML 的最佳方式

基本上,我目前有一个iPhone应用程序可以在我的服务器上查询和解析XML文件。现在,我目前必须每天早上手动更新和上传我的XML文件,以便我的用户可以获得更新的信息。我想使这个过程自动化,这基本上需要解析各种网站(NYTimes、iAmBored.com等),将每个网站的相关信息输出到一个XML文件,然后将该文件上传到我的服务器。有谁知道完成此任务的最佳方法(将HTML解析为XML文件)。由于我是初学者,我不确定这需要什么语言或者最好的方法是什么?提前致谢! 最佳答案 你可以试试translateHTMLtoXHTML(XHTML基

python - dateTime 提示 XSD 验证中的空白 (lxml)

我正在尝试使用XSD验证文档,而lxml提示dateTime值中的空白(尽管它应该折叠它)。我不确定这是否是一个错误的行为,或者我是否只是在XSD中指定了错误的地方。花了一个小时尝试对此进行调试,希望其他人之前经历过类似的行为。======================================================================ERROR[0.076s]:test_exports(disqus.importer.tests.tests.SchemaValidation)----------------------------------------